#compresión de modelo

LiftQuant: Ancho de bits continuo en LLM mediante elevación dimensional

Descubre LiftQuant: cuantización continua de LLM que permite comprimir modelos de 70B a tan solo 2.4 bits, ajustándose perfectamente a tu memoria GPU.

2026-06-04 · 2 min

Compresión de LLM con optimización conjunta de arquitectura y cuantización

Descubre cómo un nuevo enfoque de NAS optimiza arquitectura y cuantización en LLM, logrando hasta 1.4x más velocidad y 6% más precisión en tareas de razonamiento. ¡Mejora tus despliegues en edge!

2026-06-04 · 2 min

Redondeo Adaptativo que Preserva el Modelo

Descubre YAQA: algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% frente a GPTQ. Cotas de error garantizadas sin coste de inferencia.

2026-06-04 · 1 min

Redondeo Adaptativo que Preserva el Modelo

Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.

2026-06-04 · 1 min

PrimeSVT: Poda Automática con Memoria para Transformers de Visión Spiking

Descubre cómo PrimeSVT automatiza la poda de Transformers de Visión Spiking, reduciendo memoria un 26.68% con mínima pérdida de precisión. Optimiza tus modelos.

2026-06-03 · 2 min

WaterSIC: Cuantización lineal casi óptima (teoría de la información)

WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!

2026-06-03 · 2 min

¿Qué aprenden los estudiantes? Análisis de características en KD

Analizamos el aprendizaje de características en destilación de conocimiento y presentamos Confusion Distillation, una auto-destilación eficiente que supera a otros métodos en 1.2%.

2026-06-03 · 2 min

Compress then Merge: cómo fusionar LoRAs en un único adaptador

Descubre cómo fusionar múltiples LoRAs en un solo adaptador de bajo rango con Compress-then-Merge, mejorando eficiencia y rendimiento sin perder estructura.

2026-06-03 · 3 min